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SYSTEME AUTOMATIQUE DE PRISE DE SON ET D1MAGES. 



_ L'invention conceme un systeme automatique de pri- 
se de son et d'images notamnnent pour visioconference, 
comportant des moyens de connmande (20) de capteurs de 
prise de vues et de son (10) et des moyens d'analyse de 
scene (40) pilotantces moyens de commande (20) pour ob- 
tenir un cadrage automatique de la scene filmee. Salon I'in- 
vention il est prevu une interface intelligente pour realiser la 
selection (30) d'une personne ou d'un groupe parmi des 
personnes de la scene filmee. sur commande d'un interve- 
nant, et le cadrage automatique (30) a partir des infomaa- 
tions fournies par les moyens d'analyse de la scene (40), 
sur la personne selectionnee ou le groupe. 
Application a la visioconference. 
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SYSTEME AUTOMATIQUE DE PRISE DE SON ET D' IMAGES 

L' invention concerne un systeine automatique de 
prise de son et d' images notamment pour la visio- 
conf erence, 

Le besoin de tels systemes se fait sentir surtout 
5 dans le domaine de la visioconf erence , mais peut 
• egalement etre interessant dans' d'autres situations 
mettant en oeuvre de la prise de vue avec plusieurs 
personnes par exemple. 

II s'agit done de systemes avec lesquels les prises 
10 de son et de vue ne sont pas pilotees par une ou 
plusieurs personnes (cameraman et inqenieurs du son 
dans le domaine de la television) mais par un 
equipement automatique . 

Dans le cas de la visioconf erence , un intervenant a 
15 cependant la possibilite avec certains systemes equipes 
d'une telecommande de piloter la prise de vue d'une 
camera, mais ces systemes presentent des inconvenients 
comme on va le voir dans la suite. 

En effet, des systemes de v is ioconf erence sont 
20 equipes de moyens de prise de vues et de son, disposant 
d'equipements (cameras et microphones) qui ne sont pas 
orientables ou dont 1 ' orientation est commandee par 
1 ' intermediaire d'une telecommande, 

Dans des systemes de visioconf erence existants, 
25 diverses cameras telecommandables et controlables a 
distance via une communication serie sont utilises. 

La telecommande permet de balayer continument le 
site et I'azimut de la camera ainsi que de faire varier 
continument le zoom de la camera. L' or ientation de la 
30 camera dans la direction occupee par une personne ou un 
groupe de personnes est possible, mais malaisee. 
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Des directions de I'espace (aux iionibres de six pour 
ies deux cameras ) peuvent etre memor isees par la 
camera. La camera peut etre dirigee dans I'une de ces 
directions par activation . d'une touche de la 
5 telecommande ou par controle du port serie. L'interet 
de cette fonction est d'acceder directement a une 
direction de I'espace sans avoir a agir par combinaison 
de touches successives (site, azimut). Ainsi, lorsque 
les positions de I'espace preenregistrees correspondent 
10 a des places autour d'une table, 1 ' utilisateur de la 
telecommande peut simplement passer d'une personne a 
une autre. 

II existe egalement des systemes reposant sur la 
localisation acoustique selon lesquels 1 ' or ientat ion 

15 d'une camera est pilotee a partir de I'analyse 
acoustique de la scene. 

L' analyse acoustique de la scene est obtenue a 
partir de plusieurs microphones qui permettent de 
determiner la direction des sources sonores, voire des 

20 sources de parole. La direction des sources de parole 
etant identifiee, elles pourraient etre selectionnees 
une a une, puis etre suivies dynamiquement . La fonction 
Lime Light de Picture Tel, entreprise qui realise et 
commercialise des. systemes de visioconf erence, est 

25 basee sur la localisation acoustique et permet la 
detection et le . suivi d'une source sonore et 
1 ' or ientation dynamique ,d'une camera. 

II existe egalement des systerr.es reposant sur la 
localisation visuelle de personnes. Cette localisation 

30 visuelle est basee sur I'analyse par rraitement d' image 
issue de la camera. . 

Si le champ de - la camera est suffisamment large, et 
le systeme performant,, toutes les personnes presentes 
seront detectees. A la difference de la localisation 
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acoustique, la localisation visuelle beneficie de la 
permanence des visages a 1' image et de 1 'absence de 
reflexion (absence de miroirs dans les salles de 
visioconf erence et dans les lieux habituels de prise de 
5 vues) . Plusieurs techniques peuvent etre utilisees 
separement ou non pour detecter des personnes : 
detection de mouvement , detection de la teinte de la 
. peau,. detection, de formes ovales, detection globale de 
visages (par reseau de neurones par exemple) , detection 
10 d'attributs de visages tels les yeux, la bouche. 

Un certain nombre de systenes de detection de 
visages existe et certains associent une fonction de 
prise de vue automatique. On peut citer a titre 
d'exemples les systemes qui sont decrits dans les 
15 publications suivantes : 

PI - M. Collobert, R. Feraud, G. Le Tourneur, O. 
Bernier, J.E. Viallet, Y. Mahieux, D. Collobert, 
"LISTEN : a System for Locating and Tracking Individual 
Speakers", 2nd Int. Conf. On Automatic Face and Gesture 
20 Recognition, Killington, USA, October 1996, pp 283-288. 

P2- Hunke, Locating and Tracking human faces v;ith 
neural network, Technical Report CMU-CS-94 -155 , 1994. 

P3 - Yang, Wu, Waibel, Focus of attention in video 
conferencing, Technical Report CMU-CS-96-150 , 1996. 
25 Cependant, parmi tous les systemes qui viennent 

d'etre decrits, un grand nombre presente des 
inconvenients ou de toute fagon ne sont pas 
satisfaisants pour les besoins qui se font sentir 
actuellement et qui sont precise dans la suite. 
30 - En effet, les systemes ayant une fonction de 

balayage de site, azimut et focale au moyen d'une 
telecommande presentent les inconvenients suivants : 

Pour obtenir un cadre adapte, 1 ' utilisateur doit 
appuyer successivement sur plusieurs touches de la 
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telecommande (site, azimut et zoom) avant d'obtenir le 
resultat desire. Cette f onctionnalite est peu pratique, 
lente, sujette a des erreurs de manipulation et est 
done peu utilisee. Elle est de fait impraticable si 
I'on souhaite adopter per iodiquement ou continument le 
cadre de la camera a une personne qui se deplace ou un 
ensemble de participants qui nature 1 lement bougent . De 
la meme- maniere, cette f onctionnalite est egalement 
impraticable quand on souhaite changer regul ierement de 
personne. 

- La fonction acces par la telecommande a des 
directions preenregistrees de I'espace presente les 
inconvenients suivants : 

Le premier inconvenient est lie au fait que les 
positions doivent etre preenregistrees. Elles ne 
peuvent done etre rapidement continument modifiees. 

Le second inconvenient est de supposer que les 
personnes occuperont bien les positions preenregistrees 
et qu'elles n'en bougeront pas. Dans la pratique et 
meme en fixant les chaises au sol, on constate que les 
personnes bougent et done sont rarement au centre du 
cadre, voire sorteht du cadre si celui-ci est serre sur 
la personne. Get inconvenient est manifeste dans le 
cadre du systeme de visioconf erence ou spontanement les 
personnes sortent du cadre def ini par les directions 
preenregistrees de I'espace, 

L ' inconvenient suivant est que cette f onct ionna 1 i te 
d'orientation de la camera dans une direction de 
I'espace n'associe pas toujcurs de focale specifique. 
Ainsi, 1 ' ut il isateur de la telecommande doit actionner 
les touches de controle de la releconmande pour adapter 
la taille du cadre a la position ef f ectivement occupee 
par une personne. En effet, si la personne a tendance a 
sortir du cadre, en passant a une focale plus courte, 
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cette personne revient dans le cadre sans avoir besoin 
de changer la direction de I'espace dans Laquelle 
pointe la camera. Mais alors le cadre n'est plus serre 
sur la personne et, il y a eventue 1 lament plusieurs 
5 personnes dans le cadre. 

Lorsqu'il est possible d'associer et de memoriser 
une focale a chacune des directions memorisees de 
I'espace, cela inplique que" d'une part, 1 ' ut i 1 isateur 
deternine au prealable la focale qu'il estime adaptee 
10 et d'autre part, la memorise. D'autre part, cette 
focale enregistree est fixe et done non adaptative et, 
comme pour la direction, plus ou moins simplement 
modifiable , 

La f onctionnalite d'acces a des directions 
15 predeterminees de I'espace peut convenir a certaines 
situations stables ( telesurve i 1 lance ) , mais ne permet 
pas de s'adapter a une situation particul iere , La 
camera pointe dans la direction de I'espace, mais ne 
salt rien du contenu de I'espace, qu'il soit occupe par 
20 une personne ou vide. 

Un autre inconvenient, secondaire, est le nombre 
limite a 6 directions de ' l'e?;pace qui peuvent etre 
memorisees par la camera et done accessibles par la 
telecommande . Get inconvenient est en general resolu en 
25 memorisant ces directions dans un ordinateur et en 
utilisant une telecommande avec un plus grand nombre de 
touches. 

La localisation acoustique presente les 
inconvenients suivants : 
30 En raison de la presence de sources sonores 

parasites (bruits de chaises, de portes, 

d'appareils, ...) superposees a la parole des personnes 
presentes et en raison de reflexions multiples des 
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sources acoustiques sur les murs, la localisation 
acoustique est souvent peu precise. 

D'autre part, I'activite acoustique de parole est 
par nature intermittente (lorsqu'une personne s'arrete 
5 de parler pour ecouter).: 

Enfin, la localisation acoustique est sensible a 
1' amplitude de la source sonore. 

La localisation visuelle presente les inconvenients 
suivants : 

10 Le principal inconvenient de la localisation 

visuelle est lie - a la complexite des a Igor i thmes , a 
leur rapidite et a leur robustesse. Neanmoins, 
plusieurs systemes sont operat ionne is soit sur station 
de travail soit ordinateur personnel (PC) comme les 

15 systemes developpes par le deposant, ou comme dans les 
publications citees precedemment par le deposant. 

La fonction de prise de vue automatique d'un groupe 
de personnes realisee par le deposant est, a 1 'usage, 
particulierement utile bien que complexe. Le cadre 

20 s'adapte en permanence au nombre et la position des 
participants d'une visioconf erence . 

Cependant, il apparait a I'usage, que bien que plus 
performant et plus satisfaisant que tous les autres, il 
soit insuffisant car, comme cela a ete dit, des besoins 

25 se font sentir sur les possibilites d'effectuer a la 
demande un cadrage automatique sur I'un ou 1' autre des 
participants et de pouvoir revenir tout simplement au 
cadre general. 

L' invention propose- pour cela une interface 

30 intelligente apte a realiser la selection d'une 
personne (ou d'un groupe de personnes) parmi les 
personnes de la scene filmee, sur la commande d'un 
intervenant, et le cadrage automatique a partir des 
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informations fournies par I'analyse de la scene, sur la 
personne selectionnee (ou le groupe de personne) . 

L' invention a done pour objet un systeme 
automatique de prise de son et d' images notamment pour 
visioconference, comportant • des moyens de commande de 
capteurs de prise de vues et de son et des inoyens 
d'analyse de scene pilotant ces moyens de commande pour 
obtenir un - cadirage automatique de la scene filmee, 
principalement caracterise en ce qu'il comports des 
moyens de selection d'une personne ou d'un groupe de 
personnes parmi les personnes de la scene filmee et des 
moyens de cadrage automatique a partir des informations 
fournies par les moyens d'analyse de la scene, sur la 
15 personne selectionnee ou le groupe de personne. 

Selon une autre caracteristique, les moyens de 
cadrage comportent une interface logique apte a etablir 
une correspondance entre la personne selectionnee ou le 
groupe et les informations de position issues de 
I'analyse de scene pour fournir aux moyens de commande 
les informations de position de cette personne ou du 
groupe par rapport a la scene filmee. 

Selon une- autre caracteristique, les moyens de 
selection comportent une interface physique permettant 
de selectionner I'une quelconque des personnes de la 
scene ou un groupe, pour avoir un cadrage automatique 
autour de cette personne ou du groupe ou, de 
selectionner I'ensemble des personnes pour avoir un 
cadrage general de la scene. 

selon un mode de realisation, 1' interface physique 
de selection est realisee par une telecommande IR ou 
electromagnetique . 

La telecommande est la telecommande de la camera 
d'analyse d' image ou une telecommande d'analyse 
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universelle, les signaux de' commande de ladite 
telecommande etant requs et re-emis par la camera 
d'analyse, 

Selon une variante d' execution, les signaux de 
5 commande de ladite . telecommande sent regus et re-emis 
par un emetteur-recepteur au lieu d'etre re-emis par la 
camera d'analyse. 

Selon un autre mode de realisation, 1' interface 
physique de selection comprend une interface graphique. 
10 L' interface physique comporte en outre un ecran qui 

peut etre tactile, sur lequel sont visualisees la scene 
et les differentes zones select ionnables . 

Selon un autre mode de realisation, 1' interface 
physique de selection comporte un peripherique 
15 d'entree/sortie d'ordinateur pour selectionner les 
zones reperees. 

L' interface physique de selection pourra comporter 
aussi un dispositif de reconnaissance de la parole. 

Avantageusement , dans le cas d'un systeme de 
20 visioconf erence on peut prevoir que les moyens 
d'analyse de scene recpoivent un signal local pour 
I'analyse de scene, et que les moyens de selection 
permettent de selectionner une personne ou un groupe de 
personnes de la scene filmee localement. Les moyens de 
25 cadrage automatique utiiisent alors les informations 
issues de la scene filmee localement. 

II peut egalement etre prevu, dans le cas 
d'un systeme de visioconf erence , que les moyens 
d'analyse de scene regoivent un signal d'un systeme 
30 distant pour ou correspondant a 1' analyse de scene , et 
. que les moyens de selection permettent de selectionner 
alors une personne ou un groupe de personnes de la 
scene filmee a distance. Les moyens de cadrage 
automatique permettent dans ce cas, de piloter le 
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cadrage de la scene filmee a distance, les signaux de 
commande etant pour cela transportes vers le systeme 
distant par exemple avec le signal audiovisuel. 

5 D'autres avantages et part icular ites de 1' invention 

apparaitront a . la lecture de la description qui est 
donnee a titre indicatif et nullement limitatif et en 
regard des dessins annexes sur lesquels : 

- la figure 1, represente un schenia de principe de 
10 I'invention, 

- la figure 2, represente un schema plus detaille 
de 1 ' invention, 

- la figure 3, represente un mode de realisation 
part iculier , 

15 - la figure 4, represente un autre mode de 

realisation , 

- la figure 5, represente une variante d' execution 
du mode de realisation de la figure 4. 

Sur la figure 1 on a represente de fagon 
20 schematique un systeme automatique de prise de son et 
d' images dans lequel on dispose de ressources 
audiovisuelles 10 pour filmer et capter le son d'une 
scene 50. - 

Dans le cas d'un systeme de visioconf erence la 
25 scene est composee d'une ou plusieurs personnes dites 
intervenants Pl-Pn sur un site, desirant communiquer 
avec d'autres personnes d'un site distant. 

Les ressources audiovisuelles 10 sont constitutes 
par des capteurs audio et visuels. 
30 Les capteurs audio sont par exemple une serie de 

microphones places a proximite des intervenants. Les 
capteurs video sont constitues . par une ou plusieurs 
cameras filmant la scene. 
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Les ressources audiovisue 1 les 10 sont pilotees par 
un dispositif de commande 20 classique, apte a fournir 
les signaux de commande aux capteurs 10 selon les 
informations recues en entree par 1' interface 30 comme 
5 cela est detaille dans la suite. 

Conf ormement a 1' invention, les informations revues 
en entree sont fournies par 1' interface 30 a partir du 
dispositif- d'analyse de scene 40 et de la selection 
effectuee par un intervenant. 
10 Le dispositif d'analyse de scene 40 peur etre soit 

audio, soit visuel, soit audiovisuel associe a des 
capteurs visuels ou audiovisuels . 

Dans I'exemple de realisation qui est donne, ce 
dispositif est visuel. A cette fin, on utilise une 
15 camera 60 fixe qui permet de fournir le signal servant 
a effectuer une analyse de la scene visuelle. 

Le dispositif d'analyse de la scene comprend la 
camera 60 et des moyens de traitcmcnt 40 du signal A 
fourni par cette camera. Ces moyens sont realises par 
20 exemple par un micro-ord inateur ou une station de 
travail equipee d'un programme specifique d'analyse de 
scene existant. 

De fa^on plus precise selon 1' exemple de 
realisation mis en pratique, les visages des personnes 
25 presentes dans le champ visuel, sont detectes par un 
reseau de neurones, puis ledit programme met en oeuvre 
un algorithme qui suit les visages detectes. D'autres 
techniques connues peuvent etres utilisees. 

Selon un autre mode de realisation, on peut 
30 utiliser un . dispositif d'analyse de la scene 40 avec 
une camera mobile. 

Selon un troisieme mode de realisation, on peut 
utiliser ou realiser un dispositif d'analyse de la 
scene urilisant plusieurs cameras fixes ou mobiles. 
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Les differents capteurs 10 sont commandes par un 
dispositif de commande 20 qui regoit des signaux de 
commande de 1' interface 30 selon la presente invention. 

Dans le mode de realisation qui a ete realise, 
illustre par le schema de la figure 2, il s'agit d'un 
dispositif de commande 20 d'une camera notorisee 11 qui 
assure la prise de vue et d'une antenna acoustique 12 
qui assure la prise de son. 

On va detainer ci-dessous, la prise de vue et de 
son pour un ensemble de personnes et pour une seule 
personne, ce qui correspond a des realisations 
effectives. 

Les memes techniques peuvent etre mises en oeuvre 
pour une prise de vue et de son concernant un groupe de 
personnes ; le groupe est un sous-ensemble de 
1' ensemble des personnes. 

Dans le mode de realisation prefere qui a ete 
realise, I'analyse de la scene est visuelle, c'est-a- 
dire que I'on determine la position des personnes mais 
on ignore si elles parlent. Dans un autre mode de 
realisation impliquant une analyse audiovisue 1 le 
(incluant done le. son ) les dispositifs de prise de son 
seront selectionnes a partir des informations 
audiovisuelles. 

Lorsque 1 ' u t i 1 isateu r demande, a travcrs 

1' interface 30, une prise de vue sur I'ensemble de 
personnes Pl-Pn, le dispositif de commande 20 commande 
la camera de maniere a ce que I'ensemble des personnes, 
presentes dans le champ d'analyse soient cadrees, en 
respectant les regies de I'art de la prise de vue dans 
la mesure ou les contraintes de la camera I'autorise. 

Lorsque 1 ' ut i 1 isateur demande, a travers 
1' interface 30, une prise de vue sur une personne en 
particulier, le dispositif 20 commande la camera 11 de 
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maniere a ce que la personne, en respect avec les 
regies de la prise de vue, soit la t era lenient centree, 
que ses yeux soit approx imat i vement au tiers superieur 
de 1' image par exemple. 
5 Dans un mode de realisation deja realise, la 

personne selectionnee etant encadree par un ou 
plusieurs voisins, la prise de vue cherche a isoler 
cette personne des autres a 1' image, dans la mesure ou 
les contraintes liees a la cair.era et aux regies de la 

10 prise de vue I'autorise. 

Lorsque 1 ' ut i 1 isateur demande, a travers 
I'interface 30 une prise de son sur I'ensemble des 
personnes, le dispositif 20 commande la prise de son de 
maniere a capter le champ sonore des dif ferents 

15 participants. Ce champ sonore peut etre obtenu de 
differentes manieres : 

1) A partir d'un champ large realise par 
1 * antenne acoustique . 

2) Par sommation des champs sonores issus de 
20 differents dispositifs de prise de son (microphones ou 

antenne acoustique) , dispositifs selectionnes a partir 
de I'analyse de la scene. 

Lorsque ' 1 ' uti 1 isateur demands, a travers 
1' interface 30, une prise de son sur une personne, le 
25 dispositif 20 commande la prise de son de maniere a 
capter le champ sonore des differentes personnes. Ce 
champ sonore peut etre obtenu de differentes manieres : 

1) A partir du champ etroit et orientable de 
I'antenne acoustique. C'est le mode de realisation 

30 realise decrit precedemment . 

2) A partir d'un ou plusieurs dispositifs de 
prise de son, dispositifs selectionnes a partir des 
informations visuelles ou des informations 
audiovisuelles. 
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L' interface 30 permet a 1 ' uti 1 isateur d'obtenir une 
prise de vue et de son conformes a sa demande (un plan 
large sur I'ensemble des personnes, un plan serre sur 
une personne . particuliere) . L' envoi d'une commande 
5 issue de 1' interface, declenche la commande 
d'or ientation des capteurs de prise de son et de vue, 
en fonction de la scene audiovisuelle , analysee par le 
dispositif d'analyse de scene. 

A cette fin, 1' interface coinporte une interface 
10 logique 31 et une interface physique 32. 

L' interface logique 31 est, selon un mode de 
realisation, constituee par un programme charge dans le 
systeme de traitement du signal d'analyse de scene. 
Cette interface 31 recupere des informations de 
15 position des personnes sur la scene et etablit une 
correspondance entre ces informations de position et 
les informations de selection - donnees a travers 
1' interface physique par 1 ' intervenant . 

Cette interface 31 interprete (c'est a dire qu'elle 
20 decode) les informations regues pour fournir des 
signaux de commande de position interpretables par le 
dispositif de commande 20 pour effectuer le cadrage 
desire autour de la personne sclcctionnce ou du groupe. 
Plusieurs modes de realisation de 1' interface 
25 physique 32 sont donnes dans la suite. 

Un premier mode, de realisation consiste en une 
interface graphique 32A sur un micro-ordinateur ou 
station de travail P comme represente sur la figure 3. 

Avec une souris 320, 1 ' utilisateur choisit 
30 d'obtenir une prise de vue et de son sur 1' ensemble des 
personnes de la scene, en cliquant sur une fenetre 
nommee "Ensemble", reference E. Avec une souris, 
1 'utilisateur choisit d'obtenir une prise de vue et de 
son sur une personne de la scene, en cliquant sur une 
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fenetre portant le numero de la personne desiree Pl-Pn 
ou du groupe de personnes. 

Sur cette interface graphique 32A le libelle en 
chiffre de personnes peut etre remplace par I'image de 
5 la personne 321 obtenue par'le systeme d'analyse. Cette 
image est obtenue soit a un moment fixe par 
I'utilisateur, soit elle est automat iquement rafraichie 
au cours de la reunion. 

Une interface graphique 32A avec 1' image des 
10 personnes 321 est plus ergonomique pour 1 ' utilisateur , 
car 1' interface affiche les prises de vues que peut 
selectionner 1 ' utilisateur . 

On peut egalement prevoir un affichage par 
incrustation sur I'ecran de visioconf erence, en format 
15 reduit, de 1' image des personnes presentes avec des 
numeros, a la visioconf erence ct , la selection alors au 
moyen d'une telecommande . 

Dans un autre mode de realisation, la souris 320 
peut etre remplacee par un ecran tactile et/ou par un 
20 dispositif de reconnaissance de la parole R. 

Un autre mode de realisation realise, represents 
par la figure 4, consiste a detourner I'usage de 
I'actuelle telecommande 32B de la camera d'analyse 60 
de la scene visuelle. Le detournement et 1 ' uti 1 isat ion 
25 de cette telecommande a ete realise pour des raisons de 
facilite et de rapidite de mise en oeuvre. 

La telecommande infrarouge 32B est en communication 
(commandes CDE) avec la camera d'analyse 60. Cette 
camera d'analyse dispose d'un certain nombre de touches 
30 dont notamment des touches correspondant a des memoires 
de position et une touche "home" H correspondant a la 
position de repos de la camera. 

Les memoires de position ne sont pas utilisees en 
tant que telles pour pointer des directions de 
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I'espace, mais on n'utilise que le fait que les touches 
sont activees. 

Les positions des memoires de position sont 
initialisees par le dispositif, a la position de repos 
5 de la camera. La camera d'analyse etant fixe dans un 
des modes de realisation, le declenchement des 
positions 1 a 6 ou de la touche "home" H n'a pas 
d'effet sur la position de la camera d'analyse. 

Ainsi, en appuyant par example sur la touche "home" 
10 H, 1 'utilisateur declenche via les dispositifs 60, 40, 
30 et 20, une prise de vue et de son sur 1' ensemble des 
personnes presentes dans la scene. 

Ainsi, en appuyant sur I'une des touches de 1 a 6 
correspondant a la memoire des positions, I'utilisateur 
15 declenche via les dispositifs 60, 40, 30, et 20, une 
prise de vue sur la personne correspondante (6 
personnes maximum dans cette version) 

D'autres telecommandes peuvent etre utilisees 
qu'elles utilisent ou pas la camera d'analyse en tant 
20 que relais de transmission. 

On peut par exemple utiliser une telecommande a 
programmation -universelle pour permettre a 
I'utilisateur de selectionner la prise de vue et de 
son. 

25 Dans une phase preparatoire du materiel en vue de 

mettre en oeuvre 1 ' appl icat ion , on aura au prealable 
enregistre dans la telecommande universelle certains 
des codes de la camera d'analyse (memoire de position, 
"home", ...), Lors de I'utilisation effective de la 

30 telecommande 32B, les signaux infrarouges envoyes par 
la telecommande sont decodes et analyses par 
1' interface logique 31 . 

L'utilisation d'une telecommande universelle, 
permet d'une part, de rendre indisponibles certaines 
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commandes de la camera d' analyse (la telecommande 
universelle n'apprend pas les codes correspondants) , et 
d'autre part, d'avoir des touches dont le libelle 
correspond mieux a la demande de 1 'utilisateur : Ainsi, 
des touches " + et permettent a 1 ' utilisateur de 

zapper d'une personne' a une autre, comme il a 
I'habitude de le faire avec les chaines de television, 

- On va se reporter • maintenant au schema de la 
figure 5. 

Afin de ne pas dependre de la camera d'analyse en 
tant que relais entre la telecommande et 1' interface 30 
et pour offrir a 1 'utilisateur une palette de commande 
plus riche, on peut utiliser un dispositif emetteur 
recepteur 70 du commerce. 

Cet emetteur-recepteur 70 capte des signaux 
infrarouges CDE issus de" la telecommande 32B et renvoie 
des codes vers 1' interface logique 31, par exemple a 
travers un port de communication RS232, connecte a 
I'interface 30. 

Les precedents modes de realisation de I'interface 
permettent. a un utilisateur de selectionner les prises 
de vue et de son obtehues avec les capteurs 
physiquement presents dans la salle ou se trouve 
I'utilisateur . Cela est symbolise par le signal A 
(local) servant a I'analyse de la scene sur la figure 

1. : 

Dans un autre mode de realisation, les interfaces 
31, 32' precedemment decrites permettent de commander 
les capteurs de prise de vue et de son physiquement 
presents dans une salle distante ( ou ne se trouve pas 
I'utilisateur) , la salle avec laquelle il est en 
visioconf erence par exemple. 

Ainsi, I'utilisateur participant a une 
visioconf erence, selectionne et obtient les prises de 
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vue et de son desirees. Pour cela, ie signal A' 
(distant) pour 1' analyse de scene ou correspondant a 
I'analyse (signal deja analyse par un systeme distant 
depourvu du signal video) sera applique a une entree du 
5 dispositif d'analyse 40. 

Dans ce mode de realisation, les signaux C emis 
par la telecommande infrarouge ou par 1' interface 
graphique (et les signaux necessaires a la constitution 
des images de 1' interface graphique) sont transportes 
10 avec 1' image, le son et les autres signaux de la 
visioconf erence . 

Dans ce mode de realisation, I'eventuel conflit de 
commande des capteurs entre la salle locale et la salle 
distante doit etre gere. 
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. REVENDICATIONS 

1. Systeme automatique de prise: de son et d' images 
notamment pour visioconference , comportant des moyens 
de commande (20) de capteurs de prise de vues et de son 
(10) et des moyens d'analyse de scene (40) pilotant ces 

5 moyens de commande (20) pour obtenir un cadrage 
automatique de la scene filmee, caracterise en ce qu'il 
comporte des moyens de selection (30) d'une personne ou 
d'un groupe parmi des personnes de la scene filmee et 
des moyens de cadrage automatique (30) a partir des 
10 informations fournies par les moyens d'analyse de la 
scene, sur la personne selectionnee ou le groupe. 

2. Systeme selon la revend icat ion 1, caracterise en 
ce que les moyens de cadrage comportent une interface 

15 logique (31) apte a etablir une correspondance entre la 
personne selectionnee et les informations de position 
issues de 1 'analyse de scene pour fournir aux moyens de 
commande (20) les informations de position de cette 
personne ou du groupe par rapport a la scene filmee. 

20 

3. Systeme selon la revendicat ion 1, caracterise en 
ce que les moyens de selection comportent une interface 
physique (32) permettant de selectionner I'une 
quelconque des personnes de la scene ou un groupe, pour 

25 avoir un cadrage automatique autour de cette personne 
ou du groupe, ou de selectionner 1 'ensemble des 
personnes pour avoir un cadrage general de la scene. 

4. Systeme selon la revendicat ion 3, caracterise en 
30 ce que 1' interface physique de selection est realisee 

par une telecommande IR ou electromagnet ique (32B). 



SNSDOCID: <FR 2782877A1 J_> 



19 



2782877 



5. Systeme selon la. revendication 4, caracterise en 
ce que la telecommande (32B) est la telecommande de la 
camera d'analyse d'image (60), les signaux de commande 

5 de ladite telecommande (32) etant regus et re-emis par 
la camera d'analyse (60). 

6. Systeme selon la revendication 4, caracterise en 
ce que la telecommande (32B) est une telecommande 

10 universelle; les signaux de . commande de ladite 
telecommande (32B) etant regus et re-emis par la camera 
d'analyse (60) . 

7. Systeme selon la revendication 4, caracterise en 
15 ce que la telecommande (32B) est une telecommande 

universelle, les signaux de commande de ladite 
telecommande (32) etant regus et re-emis par un 
emetteur-recepteur (70) . 

20 8. Systeme selon la revendication 3, caracterise en 

ce que 1 ' interface . phys ique de selection comprend une 
interface graphique (32A)» 

9. Systeme de visioconf erence selon la 

25 revendication 4 ou 8 , caracterise en ce que 1' interface 

physique comporte en outre un ecran (321) sur lequel 

sont visualisees la scene et les differentes zones 
selectionnables . 

30 10. Systeme selon la revendication 8, caracterise 

en ce que 1' interface physique de selection comporte un 
peripherique (320) d ' entree/ sortie d'ordinateur pour 
select ionner les zones reperees. 
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11. Systeme selon la revendicat ion 3, caracterise 
en ce que 1' interface physique dc selection comporte un 
dispositif de reconnaissance de la parole (R). 

12. Systeme de ' visioconference selon I'une 
quelconque des revendicat ions precedentes, selon lequel 
les moyehs d'analyse de scene recoivent un signal 
d'analyse local* (Aj"^ caracterise en ce que les moyens 
de selection permettent de selectionner une personne ou 
un groupe de personnes de la scene filmee localement et 
en ce que, les moyens de cadrage autoi-atique utilisent 
les informations de la scene filmee local erent. 

13. Systeme de visioconference selon I'une 
quelconque des revendicat ions precedentes recevant un 
signal (A') d'un systeme distant pour ou correspondant 
a 1 'analyse de scene, caracterise en ce que les moyens 
de selection permettent de selectionner une personne ou 
un groupe de personnes de la scene f ilmee a distance et 
en ce que les moyens de cadrage autonatique permettent 
de piloter le cadrage de la scene filmee a distance, 
les signaux de commande etant transportes vers le 
systeme distant. 
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